[논문] Synthetic Data

synthetic data
Author

김보람

Published

March 24, 2023

A Comparison of Synthetic Data Approaches Using Utility and Disclosure Risk Measures

  • Deep generative model
  • Discolsure risk
  • Nonparametric Bayesian
  • Sequential regression
  • Synthetic data
  • Utility

Seongbin An, Trang Doan, Juhee Lee, Jiwwo Kim, Yong Jae Kim, Yunji Kim, Changwon Yoon, Sungkyu Jung, Dongha Kim, Sunghoon Kwon, Hang J Kim, Jeongyoun Ahn, Cheolwoo Park

The Korean Journal of Applied Statistics

서론

- 재현자료 생성기법

  • 순차적 회귀분석

  • 비모수 베이지안

  • 인공지능 기반: CTGAN, TVAE

- 유용성 지표

. (대역 유용성):자료 전체의 분포적인 특성을 얼마나 비슷하게 유지 - Propensity Score, 거리측도, α-정밀도, β-wogusdbf

. (특정 유용성): 특정 분석이 데이터의 적용될 것을 가정하고 해당 분석에서 원본자료와 재현자료가 얼마나 유사한 결과를 나타내는지 기반으로 유용성 판단 - 신뢰구간 중첩

- 노출 위험도 지표

  • 신원 노출 위험도

  • 속성 노출 위험도

  • 독창성 점수

Survey Est

  • 2019년 전국 사업체 조사 데이터

이항형, 다항형, 연속형 변수

구분 변수명 변수설명
범주형 SEX 대표자 성별(남/여)
SUMMAT_CD 매출 금액(9단계 범주)
연속형 WORKER_T 총 근로자수
EMP_T 상용근로 종사자수
BIS_MNTH 영업개월수

\[WORKER_T>=EMP_T\]

재현자료 생성기법

순차적 회귀모형

변수의 순서에 따라 결합분포의 추정값이 다르다.

\(X_j\) 범주형 \(\to\) 분류 의사결정나무 : 지니계수

\(X_j\) 수치형 \(\to\) 회귀 의사결정나무 : 엔트로피

베이지안

인공지능

재현자료의 평가 지표

Propensity Score Measure

Propensity Score: 공변량 X가 주어졌을 때 처리그룹으로 배치될 확률 \(Pr(Treatment = 1 | X)\)

재현자료로 배치되는 경우를 처리 그룹으로 배치되는 경우로 생각

\[ pMSE = \dfrac{1}{n_s+n_o}\sum_{i=1}^{n_s+n_o}(p̂_i-c)^2\]

재현자료의 유용성이 높을수록 \(pMSE\)는 0에 가까움

  • 원본자료와 재현자료를 분포적으로 구분할 수 있는지 수치화
  • 개별적 비교 필요 없이 변수의 관계성을 고려하여 평가 가능
  • 분류 모델에 따라 \(pMSE\) 값이 달라지므로 귀무분포를 고려해야 함

분포간 거리 측도

  • 원본자료와 재현자료에서 각 변수의 분포를 각각 계산하여 유용성 판단 가능

  • 변수간의 상관성 고려 못함

- KL괴리도

  • Kullback-Leibler

\[ D(f||g) = \int_{-\infty}^{\infty}f(x) log \dfrac{f(x)}{g(x)}dx\]

- Wasser-stein 거리

\[ W_r(f,g) = (\int_{0}^{1} |F_f^{-1}(t) - F_g^{-1}(t)|^r)^{1/r} dt \]

신원 노출 위험도

Notation 설명
n 원본(재현)자료 관측치 개수
\(f_i\) 원본자료의 i번째 관측치에 대해 준식별자 값이 같은 관측치 개수
\(X_i\) 원본자료의 i번째 관측치의 민감 변수 값
\(P_i\) 원본자료에서 \(X_i\) 와 같은 값을 갖는 관측치의 비율
\(d_i\) 1-\(p_i\)
\(Y_i\) 원본자료의 i번째 관측치와 연결된 재현자료 민감 변수 값
\((d_i)'\) 원본자료에서 \(X_i\)가 속한 군집에 있는 관측치의 비율

- 민감변수: 준식별자를 제외한 나머지 변수

  • 민감변수(명목형)

\[ d_i \times I(X_i=Y_t) > \sqrt{p_i(1-p_i)}, i=1,2,\dots,n\]

  • 민감변수(연속형): k-means를 이용해 값을 군집화하고 부등식 확인

\[d'_i \times |X_i - Y_i| < 1.48 \times MAD , i=1,2,\dots,n \]

MAD:중위절대편차

원본자료의 i번째 관측치에서 위 부등식을 만족하는 민감벼눗의 비율이 5% 이상이면 1, 그렇지 않으면 0 \(\to\) 지시함수 \(R_i\)

- 신원 노출 위험도

\[ \dfrac{1}{n} \sum_{i=1}^{n}(\dfrac{1}{f_i}\times I_i \times R_i)\]

작을수록 신원 추출 가능성이 작아짐

  • 구현 시간이 오래 걸림
  • 준식별자와 민감 변수로 구분시 명확한 기준이 없음

속성 노출 위험도

  • 공격자가 개인의 신원을 식별할 수는 없지만 특정 민감한 변수의 속성을 추론할 수 있을때 발생

  • 완전 재현자료여도 속성 노출 위험도 항상 존재

- CAP(correct attribution probability)

  • 공격자가 원본자료의 일부 변수(K:key bariables)를 가지고 있고 하나의 특정 변수의 값에 대하여 알고자 하는(T:target variable) 상황에서 계산

  • \(K\)\(T\) 모두 범주형이어야 계산 가능, 연속형 변수는 K-MEANS를 실시하여..

α-정밀도, β-재현율, 독창성 점수

  • 원본자료와 재현자료의 토대를 추정
  • 테이블, 이미지 등 다양한 형태 데이터 져핸에 대한 평가 지표
  • 잠재공간으로 임베딩시 hyperparameter설정에 따라 결과가 다르게 나옴

- α정밀도

  • 재현자료가 원본자료를 얼마나 충실하게 재현하는가
  • 재현자료 유용성 측정지표
  • α정밀도가 높은 재현자료는 현실성이 높은 관측치를 포함

원본 데이터 \(D_O\)의 확률분포의 서포트 안에서 α 만큼의 확률을 가지는 가장 작은 토대(α-support)를 \(S_0^α\)

\[ α정밀도:P_α\] \[ P_α := Pr(x_s \in S_0^α), for α \in [0,1]\]

\[재현자료가 원본자료의 분포에서 나타날 가능성\]

- β재현율

  • 재현자료가 원본자료의 다양성을 충분히 반영하는가
  • 재현자료 유용성 측정지표
  • β재현율이 낮은 재현자료는 원본자료의 일부만을 반복적으로 재현

\[β재현율: R_β\] \[ R_β := Pr(x_o \in S_0^β), for β \in [0,1]\]

\[재현자료의 분포가 원본자료를 얼마나 포함하지는지\]

- 독창섬점수 - 재현자료를 얼마나 원본자료에 존재하지 않는 새로운 관측치들을 만들어 내는가 - 정보노출의 위험성 측정 지표 - 재현자료가 원본자료를 과적합하여 그대로 사용하고 있는지?